195 research outputs found

    Technical aspects of Thesaurus Construction in TIPS

    No full text
    This paper describes the work done in the TIPS project about the construction of a thesaurus. This construction is a merge from a compilation of data from several web sources. These data comes from manual work, some data are real thesaurus, other are indexing recommendations. The merge is done with automatically extracted terms from large text corpora. The automatic extraction is based on both syntax and statistics. We present in this paper the way thesaurus are built and the results on Scientific corpus in the context of the TIPS project. This short paper emphasis on some technical aspects

    Typologie des moteurs de recherche sur le WEB, Rapport tâche T1.1 du projet SIIRI

    No full text
    L'état des lieux des moteurs de recherche sur le WEB, nous permet de dire que pour l'instant les systèmes proposés sont basés sur des technologie très basiques sans aucun traitement de l'information (langue, termes). Ces systèmes sont plus proches des données brutes que du besoin de l'utilisateur. Ce dernier doit alors faire de gros effort pour trouver une requête capable d'approcher son besoin. Seul les systèmes EuroFerret et Google proposent une approche légèrement plus élevée que les autres systèmes. Nous avons constaté que lorsqu'une version simplifiée de la syntaxe des requêtes était fournie, sa sémantique n'était pas évidente. Nous en concluons que pour réaliser une application frontale à ces systèmes, il est plus sur, quand c'est possible, d'utiliser la syntaxe complète du langage de l'algèbre de Boole. Il est frappant également de constater que la technologie mise en œuvre dans des systèmes date en faite des années 50, c'est à dire des tous débuts des recherches dans le domaine de la recherche d'information. La raison est probablement technique car pour couvrir la masse d'information colossale que représente le Web, ces techniques frustres sont faciles à implanter. Mais c'est aussi un choix technologique car l'exemple du système Google montre que l'on peut s'écarter du système basique booléen et fournir out de même des bons résultats avec une syntaxe des requêtes réduite à une séquence de mots. Notre proposition dans le projet SIRII d'utiliser ces moteurs de recherche comme élément basique à travers une interface d'analyse de la requête prend alors tous son sens : le moteur de recherche est vu comme une simple mais très vaste base de données d'indexation plein texte simple. Le rôle de cette interface sera alors de tirer au mieux partie des spécificités des moteurs que nous avons étudiés dans ce projet

    E.L.E.N. : Un Système d'interrogation d'une base de logiciels

    No full text
    National audienceL'augmentation de la taille et de la durée de vie des logiciels fait ressortir certains problèmes liés à l'activité du génie logiciel parmi lesquels : la cohérence entre les documents et les logiciels, la gestion des versions, le morcellement de l'information parmi les participants au projet, la vérification et la correction du logiciel, la recherche de codes réutilisables, etc. Une gestion complète et uniforme des logiciels et de leurs documentations, ainsi que la possibilité d'interroger les informations ainsi gérées, permet de simplifier un certain nombre de ces problèmes. L'information de tout le projet est alors regroupée dans un même formalisme et elle est rapidement accessible grâce à un système d'interrogation. Ainsi il est plus aisé de produire un gros logiciel et d'en effectuer la maintenance. Le système ELEN (géniE logicieL et recherchE d'informatioNs) a donc pour objectif la gestion et l'interrogation des logiciels et de leurs documentations associées. Dans cet article, nous nous intéressons plus particulièrement à la fonction d'interrogation des codes sources, qui est fondée sur une extension du modèle des graphes conceptuels

    Utiliser les liens pour adapter les moteurs de recherche aux spécificités du WEB

    No full text
    International audienceLe WEB, hypertexte mondial, nécessite l'utilisation de moteurs de recherche pour retrouver l'information. Actuellement la notion de page WEB est communément utilisée comme atome d'information retourné à l'utilisateur. Les liens entre pages sont très peu utilisés pour améliorer la qualité des réponses. Nous proposons brièvement une utilisation simple des liens dans les pages WEB, et un niveau d'indexation indépendant de la page WEB, considérée comme granularité physique

    Proposition d'un modèle relationnel d'indexation syntagmatique : mise en oeuvre dans le système iota

    No full text
    National audienceNous présentons un modèle supportant une indexation à base de syntagmes. Cette modélisation inclut une description formelle des termes d'indexation, un processus de dérivation, une fonction de correspondance, une sémantique du langage d'indexation et une fonction de pondération de la orrespondance entre termes d'indexation. Elle met en évidence les éléments qui doivent permettre de guider la conception de Systèmes de Recherche d'Informations à base de mots composés. Nous proposons également un choix de techniques pour mettre en oeuvre ce modèle, particulièrement dans l'extraction automatique des syntagmes et dans leur pondération pour le calcul de la mesure pertinence d'un document par rapport à une requête

    Correspondances compatibles avec les fichiers inverses pour la recherche d'information.

    No full text
    National audienceCet article fait un retour sur l'un des éléments majeurs d'un système de recherche d'information : la correspondance basée sur des fichiers inverses car le passage d'une formule théorique à une implantation compatible avec des fichiers inverse est rarement explicitée dans les publications. Nous proposons ici de définir plus formellement l'expression d'une formule de correspondance compatible avec des fichiers inverses. Nous proposons deux niveaux de com- patibilité. Nous étudions les modèles les plus classiques en vérifiant leur compatibilité avec les fichiers inverses. Nous explorons la traduction d'une correspondance de Jensen-Shannon, initialement non-compatible avec les fichiers inverses, vers deux formules compatibles avec les fichiers inverses à chaque niveau. Une expérimentation simple, sur un corpus d'images, montre que la classique Divergence de Kullback-Leibler obtient des résultats moins bons que la Diver- gence de Jensen-Shannon compatible avec des fichiers inverses

    Intégration des Analyses du Français dans la Recherche d'Information

    No full text
    International audienceCet article décrit des approches que nous avons implantées dans le cadre d'une collaboration de recherche entre nos deux groupes. Ces approches visent à créer une représentation plus précise pour les documents et les requêtes dans un SRI. Elles sont basées sur des extractions de termes composés, au lieu de termes simples utilisés dans les approches traditionnelles. Deux approches sont employées: par une analyse syntaxico-statistique et par l'utilisation d'une base de terminologie manuelle. Nous décrivons ces deux approches, ainsi que les résultats préliminaires obtenus

    Étude préliminaire à la recherche de photographies muséales en mobilité

    No full text
    National audienceThis paper studies the problem of images indexing and retrieval related to museum visits. We especially focus on "offline" use of mobile devices (i.e., without connection to a remote server), from the point view of intrinsic quality and the point of view of mobile potential use. We describe three approaches, and we study their qualitative behavior on a test collection of photographs of paintings taken by mobile devices in the Grenoble museum.Cet article étudie la problématique de l'indexation et de la recherche d'image dans le cadre de visites de musée. Nous nous intéressons en particulier au cas d'utilisation d'outils mobiles "hors ligne" (c'est-à-dire sans connexion à un serveur distant), du point de vue qualité intrinsèque et du point de vue application mobile. Nous décrivons trois approches de référence, et nous étudions leur comportement qualitatif sur une collection de photographies de peintures, prises par des outils mobiles dans le Musée de Grenoble

    A New Lattice-Based Information Retrieval Theory

    No full text
    Logic-based Information Retrieval (IR) models represent the retrieval decision as an implication d → q between a document d and a query q, where d and q are logical sentences. However, d → q is a bi- nary decision, we thus need a measure to estimate the degree to which d implies q, noted P(d → q). The main problems in the logic-based IR models are the difficulties to implement the decision algorithms and to define the uncertainty measure P as a part of the logic. In this study, we chose the Propositional Logic (PL) as the underlying framework. We propose to replace the implication d → q by the material implication d ⊃ q. However, we know that there is a mapping between PL and the lattice theory. In addition, Knuth [13] introduced the notion of degree of inclusion to quantify the ordering relations defined on lattices. There- fore, we position documents and queries on a lattice, where the ordering relation is equivalent to the material implication. In this case, the impli- cation d → q is replaced by an ordering relation between documents and queries, and the uncertainty P(d → q) is redefined using the degree of inclusion measure. This new IR model is: 1- general where it is possible to instantiate most of classical IR models depending on our lattice-based model, 2- capable to formally prove the intuition of Rijsbergen about replacing P (d → q) by P (q|d), and 3- easy to implement

    Building Thesaurus from Manual Sources and Automatic Scanned Texts

    No full text
    International audienceThis paper describes the work done in the TIPS project about the construction of a thesaurus base. This construction is a merge from a thesaurus manually built and one automatically extracted from large text corpora. Several manually built thesaurus have been semi-formatted to be merged in a consistent common base. The automatic extraction is based on both syntax and statistics. We present in this paper the way thesaurus are built and the results on Scientific corpus in the context of the TIPS project
    corecore